11.4 계획(Planning)과 정책 최적화(Policy Optimization) 11.4 계획(Planning)과 정책 최적화(Policy Optimization) 11.4.1 MPC (Model Predictive Control): 학습된 모델을 활용한 실시간 경로 계획 (PETS, POPLIN) 11.4.2 Dyna 스타일 알고리즘: 가상 데이터(Rollout)를 통한 모델 프리 에이전트 학습 (MBPO) 11.4.3 역전파 가능한 계획: 미분 가능한 모델을 통한 직접적인 정책 그라디언트 전파